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面向 情报 研究 的 文本 语义 挖掘 方法 述评 


BZR FAE AAMI 刘 自 强 
(山东 理工 大 学 科技 信息 研究 所 ”淄博 255049) 


摘要 : 【 目的 】 对 主要 的 文本 语义 挖掘 方法 及 其 在 情报 研究 中 的 应 用 进行 综述 分 析 。[ 文献 范围 ] 集中 选择 近 10 
年 国内 外 主流 的 文本 语义 挖掘 方法 在 情报 研究 领域 的 应 用 以 及 少数 此 前 的 代表 性 研究 和 文本 语义 挖掘 方法 的 进 
展 研 究 。[ 方法 ] 分 别 概括 介绍 词 、 句 子 和 篇 章 粒度 的 文本 语义 挖掘 方法 、 算 法 ,并 通过 主题 演化 和 技术 挖掘 领 
域 的 实际 应 用 进行 方法 剖析 。[ 结果 ] 文 本 语义 挖掘 方法 与 传统 的 情报 分 析 方 法 相 比 ， 主 要 弥补 了 两 个 缺陷 : 侧 
重 于 分 析 结 构 化 的 数据 , 无 法 处 理 多 种 异 构 的 数据 源 ; 分 析 停 留 在 统计 语法 层面 , 没有 深入 到 文本 的 语义 信息 。 
【局 限 ] 仅 对 主流 的 文本 语义 挖掘 方法 以 及 在 科学 研究 领域 的 应 用 进行 综述 分 析 , 研究 不 全 面 。[ 结论 ] 文本 语 


义 控 掘 方法 弥补 了 传统 情报 分 析 方 法 的 不 足 ， 是 情报 研究 方法 的 重要 发 展 方向 ， 随 着 方法 的 成 熟 , 下 一 步 研究 


重点 是 外 部 语义 资源 的 丰富 。 
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21 世 纪 伊始 , 网络 信 息 及 通讯 技术 的 发 展 造 成 电 
子 信 息 爆 炸 , 数据 量 每 天 以 EB 的 单位 增长 ,IDC 和 
EMC 联 合 发 布 的 “2020 年 的 数字 宇宙 ”报告 预测 到 2020 
年 ,全球 数字 宇宙 将 会 膨胀 到 4000EB, 根据 调查 结 
和 服务 器 容量 调查 可 以 得 到 一 个 相对 合理 的 推断 : 目 
前 , 全 球 产生 的 数据 量 中 仅 有 1% 左 右 的 数据 能 够 被 保 
存 下 来 , 也 就 是 说 今天 全 球 能 够 被 保存 下 来 的 数据 在 
50EB 左 右 , 而 其 中 被 标记 并 用 于 分 析 的 数据 更 是 不 到 
1096, 这 些 信息 数量 巨大 , 无 统一 结构 , 难以 被 人 或 计 
算 机 所 利用 , 但 是 蕴含 着 巨大 的 价值 。 

情报 资源 数据 量 急剧 增加 ， 如 何 利 用 这 些 结构 多 
样 化 的 信息 ,并 从 中 准确 快速 地 挖掘 出 有 价值 的 情报 
成 为 情报 工作 者 面临 的 难题 。 情 报 工作 面临 以 下 两 个 
方面 的 挑战 : 

(1) 传统 的 情报 分 析 方 法 与 多 种 异 构 的 数据 源 之 
间 的 矛盾 。 


m} 


传统 的 情报 分 析 方 法 更 多 的 是 对 文献 的 题 录 信息 
和 引文 信息 以 及 其 他 结构 化 数据 源 进行 分 析 ， 因 此 面 
对 当今 结构 多 样 化 的 信息 资源 就 显得 无 能 为 力 , 大 大 
限制 了 情报 的 获取 渠道 。 

(2) 传统 的 情报 分 析 方 法 与 文本 内 容 的 深层 次 挖 
掘 要 求 之 间 的 矛盾 。 

传统 的 分 析 方 法 一 般 停留 在 简单 的 统计 语法 分 析 
层面 , 没有 深入 到 文本 内 容 的 语义 层面 , 造成 语义 的 
缺失 问题 ， 这 样 分 析出 来 的 情报 不 够 准确 和 完整 ,也 
影响 了 知识 整合 。 

随 着 数据 挖掘 、 自 然 语 言 处 理 技术 的 发 展 和 成 熟 ， 
文本 语义 的 深度 挖掘 成 为 可 能 , 文本 语义 挖掘 可 以 帮 
助 情报 人 员 进 行 准确 的 情报 挖掘 和 分 析 工 作 , 在 信息 
人 处理 、 科 学 研究 等 领域 有 着 广阔 的 应 用 前 景 。 

本 文通 过 调研 国内 外 文本 语义 挖掘 的 研究 现状 ， 
归纳 了 文本 语义 挖掘 的 主要 技术 方法 , 并 对 其 在 科研 
领域 的 应 用 进行 详解 ， 以 期 为 文本 语义 挖掘 在 情报 分 
析 工 作 中 的 应 用 提供 帮助 。 


通讯 作者 : 赵 冬 晓 ，ORCID: 0000-0002-9518-4281, E-mail: 927011467@qq.com。 
* 本 文系 国家 社会 科学 基金 一 般 项 目 “ 未 来 新 兴 科学 研究 前 沿 识别 研究 "(项 目 编号 : 16BTQ083) 的 研究 成 果 之 一 。 
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2 文本 语义 挖掘 的 主要 方法 


文本 语义 挖掘 中 是 在 文本 挖掘 的 基础 上 寻找 文中 
的 语义 模式 ,进行 文本 语义 分 析 的 过 程 , 文本 语义 挖 
掘 按照 处 理 粒 度 分 为 词 、 句 子 和 篇 章 三 个 级 别 ， 低 粒 
度 的 文本 语义 挖掘 方法 既 可 以 独立 承担 部 分 情报 分 析 
任务 , 如 目标 信息 的 抽取 , 优化 共 词 分 析 等 ， 同时 还 
是 高 粒度 的 文本 语义 挖掘 的 基础 以便 从 宏观 上 进行 
情报 分 析 ， 如 主题 演化 分 析 以 及 研究 前 沿 探 测 等 。 
2.4 词 粒度 语义 挖掘 

词 粒 度 的 语义 挖掘 是 文本 语义 挖掘 的 基础 工作 ， 
由 于 该 粒度 的 处 理 单位 是 词语 , 因此 该 方法 不 受 数据 
结构 和 格式 的 约束 ， 只 要 是 文本 信息 都 可 以 在 该 粒度 
进行 语义 挖掘 ; 该 粒度 的 语义 挖掘 方法 主要 有 词性 标 
注 和 词义 消 歧 ,通过 词 粒 度 的 语义 处 理 ,， 可 以 为 文本 
数据 附加 第 一 层 语义 信息 , 并 且 为 句子 和 篇 章 级 别 进 
行 的 文本 语义 挖掘 奠定 了 基础 。 

(1) 词性 标注 (POS Tagging) 

词性 标注 (Part Of Speech Tagging 或 POS Tagging) 
是 指 对 句子 中 的 每 一 个 词 都 指派 一 个 词性 ， 如 名 词 、 
动词 或 形容 词 ,又 称 词类 标注 或 者 简称 标注 , 目前 的 
词性 标注 算法 大 体 分 为 中 基于 规则 的 方法 、 基 于 统计 
的 方法 和 规则 与 统计 相 结 合 的 方法 。 

最 初 的 词性 标注 系统 是 采用 基于 规则 的 方法 ， 著 
名 的 TAGGIT 系 统 利 用 3 300 条 上 下 文 规则 ,对 100 万 
词 的 Brown 语 料 库 进行 标注 , 准确 率 达 到 了 77%1l。 但 
是 如 果 人 针对 某 一 种 语言 的 各 种 语言 现象 都 构造 规则 的 
话 , 是 非常 的 艰难 和 耗 时 的 , 而 且 根 据 规则 判断 词性 
的 时 候 面临 多 种 选择 ,脱离 上 下 文 很 难 做 出 正确 的 
选择 。 

基于 统计 方法 是 20 世 纪 80 年 代 初 随 着 统计 学 在 计 
算 语言 学 中 的 重新 崛起 兴起 的 ,也 是 现在 最 常用 的 一 
种 方法 , 常见 的 有 基于 N 元 模型 的 方法 和 基于 隐 马 尔 
可 夫 模 型 的 方法 ， 近 年 来 决策 树 、 最 大 炉 钼 、 条 件 随机 
场 中 和 和 SVM 中 等 也 被 用 于 词性 标注 ,， 并 取得 了 不 错 的 
效果 。 

规则 和 统计 相 结 合 的 方法 弥补 了 两 种 方法 的 不 
足 ， 国 内 北京 大 学 计算 语言 学 研究 所 提出 了 一 种 先 规 
则 后 统计 的 规则 和 统计 相 结合 的 算法 ,正确 率 达 到 
96.6941! . 

现在 的 自然 语言 处 理工 具 基 本 都 具有 词性 标注 的 


现代 图 书 情报 技术 


功能 ,中文 主要 有 中 国 科 学 院 计算 技术 研究 所 的 
ICTCLASI 和 LTP 语言 技术 平台 喇 ， 英文 的 词性 标注 
器 有 Stanford Log- linear Part-Of-Speech Tagger 以 及 
CLAWS POS Tagger09 等 ,另外 还 有 一 些 开 源 的 工具 
包 上 也 提供 词性 标注 支持 。 

经 过 词性 标注 , 每 一 个 词 都 有 了 例如 : IN 介词 、 
CD 数 词 、J 形容 词性 、NNP 专 有 名 词 、NN 名 词 等 
计算 机 可 识别 的 类 别 标签 , 在 此 基础 上 可 以 快速 准确 
地 识别 出 文本 中 情报 含量 最 多 的 信息 ， 如 数 词 、 动 词 
和 名 词 等 具有 实际 意义 的 词 , 实现 各 种 格式 的 全 文本 
语义 挖掘 。 文 献 [12] 在 词性 标注 的 基础 上 , 将 名 词 、 动 
词 、 形 容 词 、 副 词 等 具有 较 强 的 语义 内 容 的 词 构成 微 
博 主 题词 , 并 进一步 进行 词性 过 滤 和 停 用 词 处 理 , 优 
化 了 共 词 网 络 , 实现 了 基于 共 词 网 络 的 微 博 文本 特征 
提取 ， 其 结果 优 于 基于 文档 频率 的 方法 ， 取 得 了 更 好 
的 话题 的 识别 效果 。 文 献 [13] 针 对 电子 商务 领域 的 在 
线 评论 , 提出 了 一 种 情感 标签 抽取 方法 ， 即 识别 产品 
特征 和 评价 词 之 间 是 否 存在 修饰 关系 , 该 方法 在 词性 
标注 的 基础 上 实现 对 名 词性 信息 和 形容 词性 信息 的 抽 
取 , 并 通过 最 大 炉 进 行情 感 标 签 过滤 , 最 终 得 到 情感 
标签 的 集合 ,文献 [1 入 在 文本 情感 计算 研究 中 , 创新 性 
地 在 依存 句法 分 析 结 果 的 基础 上 ,对 句子 进行 情感 主 
干 抽取 , 根据 依存 关系 的 不 同和 词性 搭配 的 不 同 定义 
了 情感 计算 规则 ， 进 行情 感 倾 向 性 分 析 ， 有 效 提 高 了 
情感 分 析 的 准确 性 。 文 献 [15] 提 出 利用 文本 语义 挖掘 
构建 中 文 领域 本 体 的 方法 , 通过 词性 标注 、 依 存 句法 
分 析 以 及 模式 匹配 等 方法 ， 从 非 结 构 化 的 文本 中 自动 
抽取 术语 和 关系 , 实验 结果 表明 该 方法 构建 的 本 体能 
更 好 地 反映 领域 知识 结构 。 

综 上 所 述 , 词性 标注 作为 一 种 最 基础 的 文本 语义 
挖掘 方法 , 既 可 以 单独 承担 简单 的 信息 抽取 的 功能 ， 
同时 又 可 以 作为 辅助 , 对 基本 的 情报 分 析 方 法 进行 语 
义 改善 , 优化 情报 分 析 结 

(2) 词义 消 歧 (Word-sense Disambiguation) 

词义 消 层 是 在 词语 具有 多 个 意思 的 时 候 , 识别 出 
词语 在 特定 句子 中 的 具体 词 意 。 作 为 自然 语言 处 理 的 
底层 研究 , 词义 消 歧 早 在 20 世纪 40 年 代 早 期 就 已 成 
为 机 器 翻译 中 的 一 个 确定 的 难题 , Weaver 在 1949 年 论 
及 机 器 翻译 时 也 肯定 了 词义 消 歧 的 重要 意义 09。 

表 1 按照 所 用 语义 资源 的 不 同 , 将 词义 消 歧 分 为 


基于 知识 库 和 基于 语料库 两 种 方法 , 在 基于 语料库 的 
方法 中 ,又 可 以 根据 是 否 有 人 工 干 预 分 为 有 监督 的 消 
皮 和 无 监督 的 消 收 。 

表 1 词义 消 歧 方法 


分 类 常用 方法 优点 缺点 


不 需要 训练 语 料 也 不 
需要 对 词典 资源 进行 
人 工 处 理 ; 能 进行 大 
规模 的 词义 消 歧 


基于 词典 资源 ; 
、 ,基于 知识 本 体 ; 
知识 库 : 

固定 搭配 等 


知识 缺乏 完备 性 


有 监督 的 词义 
iib: 机 器 学 à ES 
MN 难以 应 用 于 大 规 

习 算 法 (决策 。 消 歧 正 确 率 高 21 5 

其 于 树 、 支 持 向 量 

语料库 机 、 最 大 炳 ) 
无 监督 的 词义 仅 能 区 分 词义 类 
PB OR ”无 需 人 工 干 预 别 ， 无 法 对 词义 
算法 进行 明确 标注 
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间 、 地 名 和 候选 信息 进行 处 理 , 在 突 发 事件 的 要 素 抽 
取 上 达到 了 较 高 的 准确 率 和 召回 率 。 文献 [27] 为 了 从 学 
术 期 刊 中 抽取 其 中 的 理论 , 将 理论 识别 视 为 命名 实体 
识别 问题 , 提出 基于 语义 泛 化 思想 的 命名 实体 识别 方 
法 ,实验 选择 词性 标记 和 中 国 知 网 的 义 原作 为 泛 化 的 
方法 , 选择 依据 词性 标记 选择 义 项 的 词义 消 玻 的 方法 ， 
采用 CRF 模 型 进行 实验 , 达到 了 较 高 的 识别 准确 率 。 

词义 消长 作为 一 种 语义 改善 方法 ， 能够 有 效 地 
解决 数据 稀 琉 高 维 的 问题 ， 提 高 情报 分 析 结 果 的 准 
确 性 和 完善 性 ， 目 前 在 各 类 信息 抽取 任务 中 得 到 广 
泛 应 用 。 
2.0 ”句子 粒度 语义 挖掘 

句子 粒度 的 文本 语义 挖掘 方法 主要 是 语义 角色 标 
注 , 该 方法 适用 于 任何 具备 句法 结构 的 信息 ; 由 于 兼 具 


在 基于 知识 库 的 词义 消 歧 中 ,基于 词典 资源 是 最 
常用 的 方法 , 基于 词典 的 语义 消 歧 始 于 1986 年 1 
Lesk S 直接 利用 词典 的 词义 解释 或 者 定义 来 指导 歧义 
词 的 词义 判断 , 但 是 正确 率 在 50%-70% 之 间 , 不 是 很 
理想 。1988 年 , Pook/fllCatlett! 提出 男 外 一 种 改进 方法 ， 
对 上 下 文 的 词语 进行 同义词 扩展 , 可 以 增 大 计算 覆盖 
度 的 成 功率 。1995 年 ，Agirre 等 的 采用 WordNet 的 分 类 
体系 计算 歧义 词 及 其 上 下 文 词语 的 概念 密度 ,正确 率 
达到 80% 左 右 。 但 是 词典 资源 面向 的 词义 消 歧 大 都 是 
通用 文本 , 在 面 对 特定 领域 的 词义 消 歧 时 ， 由 于 特定 
的 上 下 文 环境 和 特定 的 词义 变化 使 得 基于 词典 资源 的 
方法 无 法 取得 好 的 效果 ,因此 基于 领域 本 体 资 源 的 词 
义 消 歧 成 为 发 展 趋势 中 1。 

基于 语料库 的 词义 消 歧 中 , 机 器 学 习 算法 是 最 常 
用 的 有 监督 的 词义 消 歧 方 法 ,有 监督 的 词义 消 歧 常 被 
看 做 是 分 类 问题 ， 常 用 的 算法 有 决策 树 Ig duo. 


词 粒 度 的 语义 信息 和 句法 结构 信息 ， 比 词 粒 度 的 文本 
语义 挖掘 更 加 完整 , 成 为 文本 语义 挖掘 的 关键 技术 。 

(1) 语义 角色 标注 (Semantic Role Labeling, SRL) 

语义 角色 标注 是 在 句子 级 别 进行 浅 层 的 语义 分 
fr, 标注 句子 中 某 些 短语 为 给 定 谓词 的 论 元 (语义 角 
色 ) ， 如 施 事 、 受 事 、 时 间 和 地 点 等 。 

语义 角色 标注 方法 主要 有 中: 基于 句法 分 析 的 语 
义 角色 标注 、 基 于 特征 癌 量 的 语义 角色 标注 、 基 于 机 
器 学 习 的 语义 角色 标注 。 

基于 句法 分 析 的 语义 角色 标注 又 分 为 基于 短语 结 
构 、 基 于 组 块 分 析 和 基于 依存 句法 的 方法 ， 基 于 短语 
结构 句法 分 析 技 术 比 较 成 熟 , 结果 比较 稳定 , 但 是 存 
在 语 料 的 稀 鸣 严重 、 难 以 抽取 更 有 效 的 特征 等 问题 ， 
因此 很 难 再 使 结果 有 进一步 的 提高 ， 越 来 越 多 的 研究 
开始 转向 基于 依存 树 的 语义 角色 标注 方法 。Hacioglu 
等 的 首次 基于 依存 句法 实现 了 英文 的 语义 角色 标注 ， 
所 使 用 的 依存 树 是 由 句法 树 转换 而 来 ,并 使 用 SVM 分 


向 量 空间 模型 中 等 ; 无 监督 的 词义 消 歧 往往 被 看 做 是 
词语 聚 类 问题 ”1。 

BioNLP 在 2011 年 的 共享 任务 中 实现 了 词义 共 指 
消 歧 ， 目前 该 功能 可 以 通过 软件 中 使 用 , 识别 出 所 有 
间 代 同一 对 象 的 词 或 词组 ， 实 现 语 义 泛 化 ,避免 产生 
歧义 。 文 献 [26] 为 了 对 突 发 事件 进行 结构 化 信息 抽取 ， 
提出 了 描述 突 发 事件 案例 的 四 元 特征 向 量 模型 并 基于 
这 一 模型 构建 抽取 框架 , 在 事件 时 间 信 息 、 地 点 信息 
和 其 他 侧面 信息 的 抽取 过 程 中 , 都 运用 指 代 消 解 对 时 


类 器 实现 了 角色 分 类 , 提出 12 个 特征 (依存 关系 、 位 置 、 
中 心 词 等 )。 文 献 [30] 采 用 英文 的 基于 依存 关系 的 语义 
角色 标注 方法 , 实现 了 基于 中 文 依存 句法 分 析 的 语义 
角色 标注 系统 。 

基于 特征 向 量 的 语义 角色 标注 就 是 从 句子 中 抽取 
所 有 充当 语义 角色 的 句法 成 分 , 然后 进行 角色 的 识别 
和 分 类 , 并 进行 角色 标注 -Gildea 等 6 首先 提出 基于 短 
语 结构 句法 分 析 SRL 系 统 的 7 个 基本 特征 (谓词 原型 、 
谓词 词性 、 子 类 框架 、 位 置 、 路 径 、 依 存 关系 、 中 心 
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词 ); Pradhan 等 6 在 基本 特征 基础 上 又 引入 了 命名 实 
体 、 中 心 词 词性 、 谓 词类 别 、 部 分 路 径 等 12 种 新 特征 ; 
李 世 奇 等 所 提出 一 种 基于 特征 组 合 和 支持 向 量 机 的 语 
义 角色 标注 , 该 方法 以 句法 成 分 作为 基本 标注 单元 ， 
首先 从 当前 基于 句法 分 析 的 语义 角色 标注 系统 中 选 出 
高 效 特征 , 构成 基本 特征 集合 ,然后 提出 一 种 基于 统 
计 的 特征 组 合 方法 , 语义 角色 标注 整体 F 值 达到 
91.81%, 提高 了 近 2%。 王 红 玲 对 基于 特征 向 量 的 语 
义 角色 标注 进行 了 系统 而 深入 的 研究 与 探索 。 

基于 机 器 学 习 的 语义 角色 标注 能 够 克服 基于 规则 
的 语义 角色 标注 方法 依赖 知识 库 的 问题 ， 目 前 核 函 
A dc USC ARTI BEC L3 等 都 成 功 地 应 用 于 语 
义 角色 标注 任务 中 。 

目前 具有 语义 角色 标注 功能 的 软件 已 经 比较 成 
3A, 例如 用 哈尔滨 工业 大 学 语言 云 站 对 名 子 “2013 年 3 
月 5 日 , 第 12 届 全 国人 民 代 表 大 会 第 一 次 会 议 在 北京 
召开 。 ”进行 语义 角色 标注 后 可 以 直接 得 到 : “全国 人民 
代表 大 会 "表示 动作 的 实事 ;“2013 年 3 月 5 日 "是 时 间 ， 
“北京 ”是 地 名 , 语义 角色 标注 后 的 词 或 短语 有 了 附加 
的 属性 , 使 得 计算 机 对 语句 有 了 “ 浅 层 ”的 语义 理解 。 
文献 [37] 提 出 一 种 利用 语义 分 析 技 术 识 别 科技 文献 的 
创新 内 容 的 方法 , 该 方法 主要 是 以 句子 为 最 小 的 标 引 
粒度 , 通过 KeyGraph 算法 抽取 摘要 中 的 关键 词 , 并 与 
WordNet 进行 映射 识别 出 语义 角色 , 据 此 进行 特征 选 
f£, 用 SVM 对 科技 文献 进行 语义 角色 标注 ,实验 表明 
该 方法 能 有 效 识别 出 科技 创新 的 内 容 ， 大 大 缩短 了 科 
技 人 员 翻 阅 文献 的 时 间 。 文献 [38] 借 助 领域 本 体 ， 在 对 
句子 进行 语义 角色 标注 的 基础 上 , 结合 句法 分 析 对 创 
新 点 句 中 的 主题 词 及 主题 词 对 应 属性 实例 进行 识别 ， 
进一步 挖掘 创 新 点 句 中 的 知识 关系 。 文 献 [39] 针 对 传 
统 的 科技 创新 主题 概率 识别 方法 忽略 文本 的 语义 内 容 
的 问题 , 提出 基于 LDA 的 科技 创新 主题 语义 识别 模 
型 ,该 方法 在 对 科技 文献 进行 语义 角色 标注 的 基础 上 ， 
构建 LDA 主题 语义 识别 模型 ,根据 表征 科技 创新 内 容 
的 关键 词语 义 角色 对 应 的 上 位 词 的 概率 更 加 准确 地 识 
别 出 科 技 创新 主题 。 

语义 角色 标注 是 一 种 简单 灵活 的 语义 挖掘 方法 ， 
其 操作 方法 和 粒度 对 于 情报 分 析 工 作 来 说 都 是 可 接受 
的 , 语义 角色 标注 不 仅 适用 于 上 述 科 技 创 新 识别 目的 
的 情报 研究 工作 ,同样 适用 于 其 他 目的 性 较 强 的 研究 ， 
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是 在 强调 文本 语义 内 容 理 解 的 前 提 下 进行 情报 研究 的 
最 为 简单 直接 的 手段 。 
2.3 ”篇 章 粒 度 语义 挖掘 

篇 章 粒度 的 文本 语义 挖 气 在 一 定 程度 上 克服 了 传 
统 的 情报 研究 方法 受 限于 格式 化 信息 ， 如 题 录 信 息 分 
析 的 问题 ， 其 主要 贡献 在 于 能 够 深入 到 文本 内 容 的 层 
面 , 结合 词 粒 度 和 句子 粒度 已 经 赋予 文本 的 语义 信息 
进行 整体 的 文本 语义 挖掘 ， 从 宏观 角度 揭示 科技 发 展 
趋势 和 发 展 的 大 方向 ,， 是 主题 演化 和 技术 挖掘 中 的 主 
要 方法 之 一 。 

(1) ERX 

文本 聚 类 是 一 种 无 监督 的 机 器 学 习 方 法 ,能 够 在 
没有 给 定 类 别 的 前 提 下 根据 信息 内 容 相似 度 进行 聚 
集 , 快速 、 高 质量 地 将 大 量 信息 组 织 成 少数 有 意义 的 
复 ， 从 而 获取 这 些 信息 中 隐藏 的 知识 或 模式 ， 在 数据 
量 极 大 的 情况 下 能 够 帮助 情报 工作 人 员 简 单 快速 地 把 
握 大 致 信息 , 为 进一步 深度 情报 分 析 奠 定 基础 。 

文本 表示 的 方法 和 聚 类 算法 对 聚 类 效果 有 直接 的 
影响 , 表 2 总 结 了 当前 各 环节 使 用 的 主要 方法 或 算法 。 

向 量 空间 模型 是 最 为 常用 的 文本 表示 方法 , 但 是 
由 于 其 忽略 了 文本 内 容 的 语义 关系 , 之 后 出 现 了 通过 
本 体 进 行 语义 改善 , 构建 语义 向 量 空 间 模型 的 方法 外 
和 LSI 模型 中 来 发 现 潜在 语义 关联 的 文本 表示 方法 ， 
这 些 文本 表示 方法 的 改进 都 不 同 程度 优化 了 文本 的 聚 
类 效果 。 文 本 表示 除了 将 文本 表示 成 计算 机 可 识别 的 
形式 以 外 , 更 为 深入 的 文本 表示 是 文本 的 主题 表示 ， 
也 就 是 主题 挖掘 ， 目 前 对 篇 章 粒 度 直接 进行 主题 识别 
的 方法 主要 是 通过 LDA 模型 。 

LDA 模型 也 称 为 三 层 贝 叶 斯 概率 模型 ， 包含 词 、 
主题 、 文 档 三 层 结构 ， LDA 将 每 个 文档 表示 为 多 个 主 
题 混 合 , 每 个 主题 是 多 个 主题 词 的 混合 ， 主 题 服 从 主 
题词 表 上 的 一 个 多 项 式 分 布 , 这 些 主题 被 数据 集中 
的 所 有 文档 共享 ， 每 个 文档 有 一 个 特定 的 主题 混合 
比例 只。 LDA 主题 模型 体现 了 主题 、 主 题词 和 文档 的 
三 层 语义 结构 , 使 文本 的 主题 具有 更 充分 的 语义 信息 
和 可 解读 性 , 成 为 文本 主题 挖掘 的 主要 方法 之 一 。 

由 于 文本 聚 类 能 够 将 大 量 的 信息 聚集 成 少数 有 意 
义 的 话题 ,因此 该 方法 在 信息 检索 和 管理 领域 得 到 广 
泛 的 应 用 。 文 献 [40] 提 出 了 适用 于 知识 库 的 树 状 结构 
的 多 层次 聚 类 ,在 领域 本 体 的 帮助 下 ,实现 将 词 映射 
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文本 表示 方法 分 析 
文档 空间 被 看 作 一 组 由 正 交 向 量 张 成 的 向 量 空 间 , 每 一 篇 文档 都 
映射 成 多 维 向 量 空间 中 的 一 个 点 ,， 用 此 空间 中 的 向 量 来 表示 。 向 量 
间 模 型 的 文本 表示 方法 简单 ， 具有 良好 的 文本 表示 效果 , 但 是 由 于 
采用 独立 性 假设 ,割裂 了 文本 原 有 的 语义 关系 ,在 对 文本 主题 挖 握 
准确 性 要 求 较 高 时 ， 进一步 进行 语义 丰富 。 
在 文本 表示 中 引入 语义 向 量 , 其 主要 方法 是 通过 
词汇 和 本 体 概念 之 间 的 映射 ， 从 而 实现 词汇 语义 的 了 
传统 的 向 量 空 间 模型 的 语义 优化 改进 。 
该 模型 将 文本 表示 为 词 -文档 矩阵 ， 其 核心 思想 在 于 通过 
将 词 向量 和 文档 向 量 投影 到 低 维 的 语义 空间 ， 一 方面 消音 
中 的 “噪音 ”， 突 出 了 词 和 文本 的 语义 关系 , 男 一 方面 能 捕 玫 
的 相关 性 ,发 现 潜在 的 语义 关联 。 


能 

将 文档 看 成 1 若干 短语 组 成 的 字符 是 是 具有 一 个 
或 者 更 多 个 词 的 有 序 序列 ,该 方法 优 于 向 量 空间 表示 中 词语 之 间 互 
相 独 立 而 导致 的 语义 缺失 问题 在 英文 文档 聚 类 中 BE. 

聚 类 算法 
F 层 次 的 聚 类 算法 : 融合 方法 和 分 裂 方法 
F 划分 的 聚 类 算法 : 比较 典型 的 是 K-means 算法 
F 密度 的 聚 类 算法 : 比较 典型 的 是 DBSCAN 算法 
F 网 格 和 子 空间 的 聚 类 算法 


为 高 层级 概念 实现 粗 粒 度 的 聚 类 ,识别 不 同 题材 的 文 ”方法 的 一 种 重要 发 展 趋 势 。 

本 ， 再 结合 各 层级 概念 与 非 概念 的 特征 词 实现 细 粒 度 Q) 文本 分 类 

的 聚 类 ， 揭 示 不 同 次 度 的 主题 信息 。 文 献 [43] 提 出 将 文 文本 分 类 是 将 自由 文本 文献 自动 归 人 一 个 或 多 个 
FRR LDA 相 融 合 的 微 博 主题 检索 模型 ， 在 对 对 应 。 事先 制定 好 的 类 目 中 , 对 文本 进行 有 效 的 组 织 和 管理 , 
索引 的 频繁 词 集 进行 文本 聚 类 后 ,调用 每 个 类 簇 的 。 便于 用 户 准确 定位 所 需要 的 信息 ,是 解决 大 数据 环境 
LDA 算法 ,从 而 挖掘 出 潜在 的 主题 。 除 此 之 外 , 通过 ”下 信息 过 载 的 关键 技术 之 一 。 

聚 类 进行 主题 识别 也 是 主题 演化 最 早 且 最 常用 的 方 文本 分 类 主要 包括 文本 表示 、 特 征 选 择 和 分 类 需 
法 ,主题 演化 的 发 展 历史 也 是 不 断 优 化 文本 主题 语义 ”训练 三 个 环节 , 在 文本 表示 上 文本 分 类 与 文本 聚 类 的 
言 息 以 提升 聚 类 精度 的 过 程 ， 随 着 语义 资源 的 丰富 和 方法 基本 一 致 , 不 再 袭 述 。 表 3 详细 列 出 了 特征 选择 


相似 度 计算 方法 


向 量 空 间 模型 


mm HE 


(1) 基于 向 量 空间 模型 的 相似 度 计算 : 余弦 相似 
HE; 距离 相似 度 ( 欧 氏 距离 、 窜 距离 、 街 区 距离 
等 ); 

(2) Jaccard 系数 等 ; 

(3) 基于 本 体 的 相似 度 计算 : 文本 之 间 的 相似 度 
被 转换 成 概念 之 间 的 相似 度 。 
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基于 短语 的 相似 度 计算 : 主要 用 于 后 级 树 模 型 
P 文 本 被 表示 成 短语 集合 的 情况 下 ,其 基本 思 
想 是 采用 两 个 文本 之 间 相 交 的 短语 占 两 个 文本 
短语 并 集 的 比例 作为 文本 的 相似 度 。 


h 
5] 
, 


个 一 个 短语 前 
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后 级 树 模型 


di 
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语义 标注 技术 的 成 熟 , 通过 文本 语义 挖掘 方法 使 得 越 
来 越 多 的 语义 信息 在 主题 中 得 以 体现 ,成 为 主题 演化 


和 分 类 器 训练 环节 所 使 用 的 主要 的 方法 和 算法 并 进行 
了 比较 分 析 。 


RI 文本 分 类 中 特征 选择 和 分 类 天 训练 环节 方法 与 算法 总 结 
分 类 环节 方法 比较 分 析 
文档 频率 (DF) ” ”能够 很 容易 地 用 于 大 规模 语 料 统计 。 
RAWA I 在 机 器 学 习 领 域 被 广泛 使 用 。 
特征 选择 Hoi E CHDAS 目前 最 好 的 特征 选择 方法 之 一 , 与 其 他 方法 相 比 , 减少 了 约 50% 的 词汇 ， 分 类 效果 好 , 在 文本 数量 
逐 减 增多 过 程 中 , 稳定 性 好 ,大 多 数 的 中 文 分 类 系统 都 采用 该 方法 。 
HAMD — 在 统计 语言 模型 中 被 广泛 使 用 。 
支持 向 量 机 (SVM) 中 英文 分 类 中 分 类 精度 最 高 , 但 是 时 间 开 销 最 大 。 
KNN K 近邻 算法 简单 ,易于 实现 , 但 是 分 类 精确 度 不 高 。 
分 类 器 训练 贝 叶 斯 所 需 训 练 时 间 最 少 , 但 是 在 特征 项 之 间 联系 特别 紧密 的 情况 下 ,分 类 性 能 受到 较 大 影响 。 
决策 树 产生 的 分 类 规则 更 易于 理解 且 能 够 很 容易 地 用 于 离散 型 的 属性 数据 , 但 是 当 属性 值 较 多 时 会 受到 影响 。 
神经 网 络 算法 。 “个 需要 先 验 知识 , 但 是 内 部 规则 的 可 理解 性 差 , 很 难 从 中 提取 规则 ， 面 对 离散 型 属性 数据 需要 先 转 
化 成 数值 属性 ,在 属性 较 多 时 受到 的 影响 比 决策 树 更 大 。 
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除了 在 网 络 信 息 处 理 上 的 广泛 应 用 外 四 “9, 文本 
分 类 方法 在 当前 情报 分 析 过 程 中 的 主流 应 用 之 一 就 是 
言 息 抽取 中 实体 关系 的 识别 ,文献 [49] 将 实体 关系 的 
识别 看 作 分 类 问题 , 通过 KNN .SVM 等 分 类 方法 训练 
分 类 器 , 实现 半 监 督 的 实体 关系 抽取 任务 。 电 子 病历 
包含 大 量 与 患者 健康 状况 密切 相关 的 医疗 知识 , 因此 
对 它们 的 识别 是 信息 抽取 在 医疗 领域 的 重要 进展 。 文 
献 [50] 梳 理 了 命名 实体 识别 和 关系 抽取 的 方法 , 分 析 
了 电子 病历 命名 实体 识别 、 实 体 修 饰 识别 和 实体 关系 
抽取 的 主要 方法 , 在 此 基础 上 总 结 出 电子 病历 实体 关 
系 抽 取 主 要 采用 机 器 学 习 的 分 类 方法 ， 并 一 般 采 用 
SVM lig Ki 


3 文本 语义 挖掘 方法 在 情报 分 析 中 的 应 用 


代表 的 学 科 和 主题 结构 的 变化 。1986 年 ，Callon 等 中 
首次 在 饮食 纤维 等 研究 领域 通过 主题 词 共 词 分 析 , E 
立 不 同时 期 的 网 络 图 谱 , 分 析 了 主题 词 在 不 同时 期 的 
网 络 图 谱 中 的 变化 情况 以 揭示 该 领域 的 主题 演化 轨 
迹 。1995 年 ,国内 崔 雷 5 以 丙 型 肝炎 作为 研究 主题 ， 选 
取 1991 年 -1992 年 间 与 该 主题 相关 的 高 被 引文 献 ， 进 
行 主题 词 的 共 词 聚 类 分 析 ,， 将 1992 年 高 被 引 论文 进行 
同 被 引 聚 类 并 进行 比较 ， 对 比 揭示 了 丙 型 肝炎 领域 研 
究 主题 的 变化 情况 , 并 进行 情报 预测 ,是 基于 主题 词 
的 共 词 分 析 方法 在 主题 演化 以 及 研究 前 沿 探测 的 较 早 
研究 。 后 来 国内 外 学 者 5 又 基于 文本 的 关键 词 、 主 
题词 或 高 频 词 直接 进行 共 词 聚 类 分 析 , 揭示 了 不 同 领 
域 的 学 科 主 题 演化 轨迹 。 

但 是 共 词 分 析 的 方法 都 是 基于 词 频 的 聚 类 , 在 文 


科学 研究 领域 的 发 展 变化 跟踪 和 研究 前 沿 预测 是 
情报 分 析 方 法 的 重要 应 用 , 尤其 在 当前 创新 驱动 发 展 
的 形势 下 ,为 决策 者 提供 数据 支持 是 情报 工作 人 员 的 
重要 职责 。 在 激烈 的 科技 竞争 中 能 够 准确 及 时 地 把 握 
科学 研究 的 发 展 脉络 并 进行 研究 主题 的 前 脆性 预测 是 
占据 科技 制高点 的 关键 , 科学 数据 是 完成 上 述 情报 工 
作 的 最 理想 的 数据 源 ， 当 前 情报 分 析 在 这 方面 的 主要 
应 用 包括 通过 科学 论文 数据 的 主题 演化 分 析 和 科学 研 
究 前 沿 探测 以 及 通过 专利 数据 的 新 兴 技 术 控 掘 。 

31 主题 演化 分 析 

学 科 主 题 演化 所 是 指 以 词语 为 表征 的 学 科 主 题 在 
时 间 维 度 上 的 发 展 变化 过 程 ,与 空间 变化 相 比 , 学 科 
主题 的 时 间 演 化 体现 的 是 学 科 主 题 的 新 陈 代谢 过 程 ， 
体现 某 一 学 科 的 发 展 态势 和 未 来 走向 ,是 研究 学 科 发 
展 规律 的 重要 内 容 , 文本 语义 挖 据 方法 在 主题 演化 分 
析 中 主要 体现 在 通过 聚 类 进行 主题 识别 ， 目 前 主要 是 
引文 分 析 和 共 词 分 析 的 方法 。 

引文 分 析 的 方法 "是 通过 连续 时 间 段 内 的 共 引 
聚 类 图 的 历时 比较 揭示 科学 研究 主题 的 演化 , 由 于 其 
涉及 的 只 是 外 部 指标 , 没有 使 用 含有 主题 信息 最 多 的 
文本 语义 信息 , 在 主题 的 确定 上 缺乏 准确 性 ,因此 较 
之 共 词 分 析 的 方法 有 所 不 足 。 

(1) 共 词 分 析 法 的 发 展 

共 词 分 析 的 基本 原理 是 统计 一 组 词 两 两 在 同一 篇 
文献 中 出 现 的 次 数 ,以 此 为 基础 对 这 些 词 进行 聚 类 分 
析 ， 从 而 判定 这 些 词 之 间 的 亲 玻 关系 ,分 析 这 些 词 所 


现代 图 书 情报 技术 


本 主题 的 呈现 上 不 够 充分 ,因此 有 学 者 开始 通过 文本 
语义 挖掘 的 方法 改善 文本 主题 表示 , 提升 了 主题 演化 
的 准确 性 和 精确 性 。 

优化 关键 词 的 选择 

王晓光 5] 研究 证 明 共 词 网 络 内 存在 社区 现象 ， 通 过 层 
次 聚 类 识别 网 络 社 区 ,这些 社 区 由 许多 节点 组 成 ,每 一 个 节 
点 都 是 文章 的 关键 词 ， 因 此 在 语义 上 大 大 丰富 了 主题 表示 ， 
并 通过 社区 相似 度 算 法 构建 了 科研 主题 演化 分 析 模 型 来 发 
现 研究 前 沿 。 文献 [58] 提 出 一 种 基于 -clique 社区 的 知识 创 
新 演化 揭示 方法 ， 首 先 将 2008 年 -2012 时 间 段 内 碳 纳米 管 领 
域 的 文献 构造 时 序 关 键 词 共 词 网 络 ， 利用 C-Finder 生成 
K-clique 社区 , 使 用 Sybase 公司 的 PowerBuilder 进行 演化 处 
理 ， 准确 识别 了 碳 纳 米 管 领域 该 时 间 段 内 的 知识 创新 主要 
方向 ,文献 [59] 将 TF-IDF 引入 筛选 重要 的 关键 词 ， 并 用 滑动 
时 间 窗 口 切 分 数据 ， 构建 共 词 网 络 ， 抽取 网 络 的 最 大 连接 图 
进行 聚 类 ,并 计算 相似 度 从 而 完成 研究 主题 的 演化 图 谱 , 在 
LED 领域 从 演化 视角 揭示 了 研究 前 沿 ， 并 揭示 了 研究 前 沿 
主题 产生 、 成 长 、 消 退 、 消 失 的 过 程 。 

@@ 优 化 语义 关系 

文献 [60] 针 对 共 词 分 析 法 中 忽略 了 关键 词 对 之 间 的 深 
层 语义 关系 的 问题 , 提出 一 种 基于 关键 词 共 现 和 语义 关联 
相 结 合 的 主题 演化 方法 。 通 过 Word2Vec 将 关键 词 表 示 成 语 
义 级 别 的 词 向 量 ， 并 通过 Pearson 系数 计算 关键 词 之 间 的 相 
关系 数 ， 从 而 准确 识别 出 信息 检索 领域 的 主题 演化 趋势 。 文 
献 [61] 针 对 主题 演化 中 的 语义 缺失 和 批 处 理 问题 , 通过 语义 
角色 标注 技术 改善 文本 主题 表示 ,提出 一 种 在 线 增 量 的 基 
于 特征 本 体 的 主题 演化 方法 ， 首先 使 用 TF-IDF 方法 计算 每 
个 词 对 文档 的 重要 程度 ， 按 重要 程度 将 前 N 个 词 对 应 的 词 
语 -文档 矩阵 转化 为 词语 -词语 连接 矩阵 ,保留 高 于 某国 定 
阅 值 的 所 有 值 ， 也 就 是 词语 之 间 的 关系 值 ， 然 后 对 词语 之 间 的 


语义 关系 进行 包括 同义词 (synonym)、 上 义 词 (hypernym)、 反 
3.38] (antonym), 4f (holonym),, 2&2 (entailment) , &t4$ (cause), 
属性 (attributeOf)、 属 性 值 (attribute)、 实 例 (instance)、 一 般 关 
系 (relation) 10 种 语义 角色 的 标注 , 增强 了 语义 的 可 解释 性 ， 
形成 由 多 个 连通 图 组 成 的 特征 本 体 , 每 个 连通 图 代表 一 个 主 
题 , 大 大 丰富 了 文本 的 主题 语义 信息 。 国 内 学 者 叶 春 鞠 等 吕 
提出 一 种 利用 改进 的 共 词 分 析 方 法 ,在 进行 主题 词 抽取 和 共 
现 和 矩阵 构建 后 , 利用 LDA 主题 模型 进行 主题 网 络 识别 ,该 方 
法 更 能 精确 地 体现 主题 词 、 主 题 和 文档 之 间 的 三 层 语 义 关系 ， 
以 信息 量 取代 传统 共 词 分 析 方法 中 以 词 频 或 共 现 词 频 作 为 主 
题 识别 的 指标 , 更 客观 、 准 确 地 揭示 主题 的 演化 规律 。 

(2) 文本 主题 挖掘 的 发 展 

文献 [62] 基 于 层次 概率 模型 hLDA 并 考虑 时 间 信 
息 自动 挖掘 科技 文献 中 潜在 的 主题 信息 , 利用 Gibbs 
抽样 方法 对 模型 参数 进行 推断 ,同时 利用 互信 息 对 主 
题词 进行 筛选 ,最终 使 用 先 / 后 离散 分 析 方 法 研究 科技 
文献 的 主题 随时 间 的 演化 。 文 献 [63] 运 用 隐 马 尔 可 夫 
模型 理论 ,选择 网 民 特 征 、 信 息 主题 和 信息 内 容 完整 
度 三 维 指标 ， 设 定 隐 马尔 可 夫 的 状态 值 ， 并 选取 与 情 
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可 以 看 出 针对 引文 分 析 存 在 的 浆 端 , 文本 语义 挖 
掘 方法 以 其 深入 到 文本 内 容 的 分 析 呈 现 出 特有 的 优越 
TE, 但 是 共 词 分 析 法 也 有 一 定 的 语义 缺陷 性 ， 因 此 文 
本 语义 挖掘 分 别 通过 词 粒度 的 标注 和 聚 类 算法 对 共 词 
分 析 法 进行 改善 ， 除 此 之 外 还 有 通过 其 他 主题 模型 进 
行文 本 主题 优化 表示 的 方法 。 本 文 所 介绍 的 各 粒度 的 
文本 挫 气 方法 在 主题 识别 阶段 都 得 到 广泛 的 应 用 ， 而 
且 成 为 针对 传统 情报 分 析 方 法 的 语义 缺失 问题 进行 改 
善 的 重要 手段 ,由 于 其 处 理 粒 度 的 灵活 性 以 及 丰富 性 ， 
文本 语义 挖掘 方法 既 可 以 作为 语义 补充 参与 其 他 方法 
进行 主题 演化 分 析 , 也 可 以 形成 完整 的 主题 演化 分 析 
流程 ,有 着 广阔 的 应 用 前 景 。 
3.2 ”技术 挖掘 

技术 挖掘 信 是 21 世纪 初 , 美国 学 者 Porter 等 提出 
的 基于 历史 科技 文献 分 析 当 前 和 未 来 技术 发 展现 状 和 
趋势 的 理论 和 方法 。 与 其 他 的 科技 文献 相 比 ,专利 具 
有 结构 规范 , 技术 叙述 详尽 、 严 谨 以 及 分 类 科学 等 特 
点 ， 更 容易 表示 成 结构 化 的 语义 模型 ， 因 此 成 为 技术 


形成 、 发 展 、 波 动 、 消 亡 的 观测 值 , 构建 了 面向 网 络 
与 情 发 现 的 隐 马 尔 可 夫 模 型 ,揭示 微 博 由 情 的 演化 过 
程 。 文 献 [6 和 提出 一 种 利用 会 议 数据 进行 动态 主题 演 
化 分 析 的 方法 , 首先 利用 马尔 可 夫 条 件 随 机 场 对 数据 
进行 主题 聚 类 , 经 过 这 一 步 可 以 对 文本 主题 进行 一 个 
浅 层 的 语义 理解 ， 而 且 不 需要 对 聚 类 的 主题 数 进 行规 
定 ,利用 MeSH 与 主题 词 之 间 进 行 映射 ， 并 选择 合适 
的 主题 词 作为 聚 类 主题 的 标签 , 通过 计算 主题 相似 度 
实现 了 DBLP 领 域 的 主题 演化 分 析 。 

本 文 将 文本 语义 挖 气 方法 在 主题 演化 分 析 中 的 应 


用 进行 总 结 ， 如 图 1 所 示 : 
文本 语义 挖掘 方法 应 用 场景 
| Mog | 十 模型 | 
5 人 网络 社 区 发 现 | 
tk 记分 析 文 x| 研 
A 本 5x | 
ES 主 | 前 
题 题 | 沿 
NONE Nun 识 演 | R | 
| 停留 在 外 部 别 化 | 测 
| 引用 指标 | — — 9» 
引文 分 析 


图 1 文本 语义 挖 据 在 主题 演化 分 析 中 的 应 用 


挖掘 使 用 最 多 的 信息 源 。 专 利 的 文本 挖掘 是 文本 挖掘 
在 专利 文献 中 的 应 用 ,其 核心 部 分 在 专利 文本 知识 表 
示 和 专利 技术 的 演化 趋势 分 析 。 

目前 专利 文本 知识 表示 的 主流 方法 是 包含 语义 信 
息 的 向 量 空间 知识 表示 ,其 中 SAO (Subject-Action- 
Objecb 语 义 向 量 又 是 在 专利 文本 中 最 常 使 用 的 方法 ， 
该 方法 通过 语义 标注 技术 、 命 名 实体 识别 技术 和 文本 
分 类 技术 实现 专利 SAO 结构 的 抽取 。 相对 于 基于 本 体 
知识 、 技 术 向 量 空间 模型 的 专利 文本 知识 表示 方法 ， 
SAO 结构 的 专利 文本 表示 方法 既 省 时 省 力 ， 又 有 语义 
信息 的 补充 ,为 进一步 的 技术 挖掘 提供 了 良好 的 基础 。 

SAO 结构 源 自 于 发 明 问 题解 决 理 论 , 面向 专利 的 
SAO 结构 抽取 是 从 文本 中 抽取 出 (Subject，Action， 
Objecb 实 体 关 系 三 元 组 ， 是 表示 问题 解决 方法 的 基本 
功能 函数 单元 , 在 专利 文献 中 能 够 呈现 各 概念 之 间 的 
关系 , 可 以 将 专利 的 核心 部 分 表示 出 来 。S 和 O 代表 
部 件 实体 , 一 般 由 名 词 或 名 词性 短语 表示 , 通过 词性 
标注 和 进一步 的 命名 实体 识别 进行 抽取 。S 和 O 之 间 
的 相互 关系 的 指示 词 A 的 抽取 则 是 难点 , 属于 实体 关 
系 抽取 , 通过 分 类 方法 采用 机 融 学 习 的 方法 完成 。 

Yoon 等 9 为 了 挖掘 碳 纳米 管 领域 的 最 新 技术 , 在 
对 该 领域 专利 文献 进行 句子 切 分 、 词 性 标注 、 词 义 消 
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靶 等 预 处 理 后 , 抽取 出 SAO 结构 ， 如 表 4 Bron: 
表 4 SAO 结构 抽取 结果 (Patent EPO2749069) 


S (subject) A (action) O (object) 
Carbon Contain Gas plasma 
Chemical vapor 

s zi Use Carbon 
deposition 
; Nitrogen, hydrogen 
Group Comprise . 
argon and ammonia 
Microwave energy Generate Plasma 
Plasma chamber Cool Electrodes 
Powder Have Particle size 
CVD chamber Inject Catalyst 
Vacuum chamber Generate Gaseous plasma 
Vacuum chamber Maintain Gaseous plasma 


表 4 中 的 第 一 行 Carbon 和 Gas plasma 都 是 名 词性 
质 , 通过 词性 标注 加 以 识别 抽取 ，Contain 是 它们 之 间 
的 关系 , 通过 语义 标注 来 识别 并 通过 基于 机 器 学 习 的 
分 类 来 进行 大 规模 抽取 ， 即 “ 碳 含 有 气体 等 离子 "。 将 
所 有 的 专利 文本 表示 成 相应 的 SAO 结构 之 后 ,专利 之 
间 的 相似 度 对 比 就 变 成 了 专利 所 含 的 SAO 结构 的 句 
子 之 间 的 文本 语义 相似 度 计算 ， 得 到 专利 的 相似 度 矩 
阵 , 并 形成 专利 网 络 图 , 通过 定义 DSI 与 GCI 两 个 指 
标 来 识别 先进 技术 。 文 献 [67] 为 了 通过 基于 功能 的 专 
利 分 析 来 挖 抉 技术 潜在 应 用 领域 以 便 支持 技术 转移 ， 
构造 专利 的 SAO 结构 中 AO 部 分 的 语义 向 量 空间 , 在 
WordNet 的 帮助 下 通过 比较 Action 的 相似 度 , 识别 具 
有 定义 功能 的 专利 , 将 这 些 专利 与 工业 领域 类 别 进行 
上 映射 ， 从 而 识别 出 某 技术 的 工业 应 用 领域 。 文 献 [68] 
在 对 专利 进行 SAO 结构 表示 的 基础 上 , 将 专利 进行 相 
似 度 计算 ， 并 进行 多 维 尺 度 分 析 , 找到 离 群 点 ， 这 些 
离 群 点 有 些 即 代表 了 新 兴 技 术 。 以 上 研究 在 进行 结构 
抽取 时 都 使 用 了 自然 语言 的 处 理工 具 ， 目 前 这 些 工 具 


K, 生成 技术 主题 演化 图 ,识别 新 的 技术 方向 。 
本 文 将 文本 语义 挖掘 方法 在 专利 技术 挖掘 中 的 应 
用 进行 总 结 , 如 图 2 所 示 。 可 以 看 出 ， 当 前 文本 语义 挖 
掘 方法 在 专利 技术 挖掘 的 主流 应 用 集中 在 通过 文本 语 
义 挖 掘 方法 对 专利 文本 的 表示 ,并 通过 文本 相似 度 算 
法 进行 技术 演化 和 新 兴 技 术 的 识别 。 词 语 和 句子 粒度 
的 语义 挖掘 方法 已 经 成 为 结构 化 信息 抽取 的 基础 ， 而 
且 该 方法 已 经 比较 成 熟 , 今后 在 技术 挖掘 方面 的 研究 
会 更 多 地 集中 在 新 兴 技 术 主 题 的 识别 和 判定 上 。 
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针对 传统 的 情报 分 析 方法 侧重 于 分 析 结 构 化 数据 
的 局 限 性 , 本 文 从 词 、 句 子 和 篇 章 粒 度 分 别 介绍 了 当 
前 的 主要 文本 语义 挖掘 方法 ,该 方法 以 其 处 理 粒度 的 
灵活 性 以 及 对 文本 格式 的 普 适 性 , 完全 能 够 应 对 情报 
分 析 工 作 中 遇 到 的 格式 问题 ; 针对 情报 分 析 中 的 语义 
缺失 问题 ， 当 前 的 文本 语义 控 气 方法 实现 了 词语 、 句 
子 和 篇 章 粒度 的 语义 丰富 ,充分 挖掘 信息 中 旨 含 的 情 
报 , 大 大 提高 了 情报 分 析 的 准确 性 , 使 得 文本 语义 挖 
气 方 法 在 情报 工作 中 有 着 广阔 的 应 用 前 景 。 

从 当前 的 发 展 情况 来 看 , 多 种 异 构 的 数据 源 已 经 


都 已 经 具有 词性 标注 、 句 法 分 析 等 功能 ,完全 可 以 辅 


助 实现 结构 化 信息 抽取 。 

胡 正 银 等 加 在 对 专利 进行 SAO 结构 进行 抽取 的 
基础 上 , 对 每 一 条 SAO 按照 技术 问题 、 技 术 方案 、 技 
术 功 能 与 技术 效果 再 进行 语义 标注 ， 如 Action 为 “used 
as” 等 ， 则 该 SAO 被 标注 为 “Function” 语 义 类 型 如 果 
Action 为 “comprise”， 则 该 SAO 被 标注 为 “Solution” 语 
义 类 型 。 在 对 SAO 结构 进行 语义 标注 后 ,进行 降 维 并 
生成 技术 主题 , 并 通过 文本 聚 类 算法 进行 技术 主题 聚 
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不 是 情报 工作 中 的 处 理 难题 , 下 一 步 的 主要 研究 重点 
TET: 文本 语义 挖掘 的 自动 化 ， 当 前 的 文本 语义 控 气 方 
法 大 都 是 有 监督 或 半 监 督 的 方法 ， 精 确 度 较 高 , 在 数据 
量 急剧 扩张 的 情况 下 ,无 监督 的 文本 语义 挖掘 方法 可 
以 有 效 提高 情报 工作 效率 ; 实现 文本 语义 资源 的 进 一 
步 融合 ， 目 前 通过 外 部 语义 资源 进行 语义 丰富 辅助 文 
本 挖掘 的 方法 还 不 是 很 成 熟 , 在 各 种 语义 挖掘 技术 出 
现 并 成 熟 的 情况 下 , 例如 本 体 、 语 义 词典 、 语 义 网 等 语 
义 资 源 的 构建 将 大 大 影响 到 文本 语义 挖掘 的 效果 。 
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Abstract: [Objective] This paper reviews the semantic text mining techniques for intelligence analysis. [Coverage] We 
surveyed the leading semantic text mining research on intelligence analysis from the last ten years and a few earlier 
studies. [Methods] We first discussed the semantic text mining methodologies and algorithms for words, sentences and 
paragraphs. Then, we analyzed these techniques from the perspective of topic evolution and applications of mining 
technologies. [Results] Compared to the traditional intelligence analysis methods, semantic text mining approaches 
could process unstructured data and deal with multi-layer structured data. [Limitations] Only reviewed the leading 
studies and their applications in the scientific field. [Conclusions] Semantic text mining improve the performance of 
traditional intelligence analysis systems and become the future direction of research methodology. More research is 
needed to enrich the outlier semantic resources. 
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